Nvidia DGX Суперкомпьютеры

Продукт
Разработчики: Nvidia (Нвидиа)
Дата премьеры системы: 2016/04/05
Дата последнего релиза: 2020/04/12
Технологии: Суперкомпьютер

Содержание

Основная статья: Суперкомпьютеры

2021: Nvidia DGX Station 320G

12 апреля 2021 года на ежегодной конференции GTC NVIDIA анонсировала новую версию DGX Station – DGX Station 320G, которая базируется на GPU Ampere, содержащем технологии, позволяющие делить GPU на подразделы, и по сравнению с предыдущей моделью обладает большим объемом памяти. До 28 специалистов по обработке и анализу данных могут использовать одну и ту же станцию одновременно.

Из презентации на GTC следует, что каждая такая станция обеспечивает производительность до 2,5 Пфлопс. Правда, в презентации не уточняется, имеется ли в виду производительность на операциях двойной или одинарной точности.

В компании заявляют, что кластер на базе CPU с аналогичной производительностью сегодня стоил бы порядка $1 миллиона, а DGX Station стоит $149 тысяч.

'NVIDIA анонсировала новую версию DGX Station – DGX Station 320G'

Полный список анонсов на GTC 2021 доступен здесь.

2020: NVIDIA DGX Station A100

16 ноября 2020 года компания NVIDIA представила петафлопсный интегрированный сервер NVIDIA DGX Station A100. Система искусственного интеллекта второго поколения DGX Station A100 ускоряет выполнение сложных задач машинного обучения и обработки данных для команд, работающих в офисах корпораций, исследовательских центрах, лабораториях или домашних офисах.

С производительностью в 2.5 петафлопс в задачах ИИ, DGX Station A100 является сервером для рабочих групп с четырьмя GPU NVIDIA A100 с тензорными ядрами, объединенными интерфейсом NVIDIA NVLink, с объемом памяти до 320ГБ для совершения новых прорывов в области обработки данных и искусственного интеллекта.

DGX Station A100 также является сервером рабочей группы, который поддерживает технологию NVIDIA MIG (Multi-Instance GPU). Благодаря этой технологии с помощью одной станции DGX Station A100 можно организовать до 28 отдельных инстансов для выполнения параллельных задач и работы нескольких пользователей без снижения производительности системы.

Организации по всему миру взяли на вооружение системы DGX Station для выполнения анализа данных и задач ИИ в таких отраслях, как образование, финансовые услуги, правительство, здравоохранение и розничная торговля. Среди них:

  • BMW Group Production применяет системы NVIDIA DGX Station для быстрого получения аналитических данных, так как они разрабатывают и разворачивают ИИ-модели для улучшения операций.
  • DFKI, немецкий исследовательский центр искусственного интеллекта, использует DGX Station для создания моделей, которые решают критически важные социальные и промышленные задачи, включая создание систем компьютерного зрения, которые помогают службам экстренной помощи быстро реагировать на стихийные бедствия.
  • Lockheed Martin применяет DGX Station для разработки моделей искусственного интеллекта, которые используют данные датчиков и лог-файлы для прогнозирования необходимости в техническом обслуживании, чтобы увеличить время безотказной работы производства, повысить безопасность для рабочих и снизить эксплуатационные расходы.
  • NTT Docomo, ведущий оператор мобильной связи Японии с более чем 79 миллионами абонентов, использует DGX Station для разработки инновационных сервисов на основе искусственного интеллекта, таких как решение для распознавания изображений.
  • Pacific Northwest National Laboratory использует станции NVIDIA DGX для проведения исследований в поддержку национальной безопасности, финансируемых из федерального бюджета. PNNL специализируется на технологических инновациях в области энергетической отказоустойчивости и национальной безопасности и является ведущим центром высокопроизводительных вычислений в США, занимающимся научными открытиями, энергетической отказоустойчивостью, химией, геонауками и анализом данных.

Хотя DGX Station A100 не требует питания или охлаждения уровня ЦОД, это система серверного класса, которая имеет те же возможности удаленного управления, что и системы NVIDIA DGX A100 для ЦОД. Системные администраторы могут легко выполнять любые задачи управления через удаленное соединение для специалистов по обработке данных и исследователей, работающих дома или в лабораториях.Российский рынок облачных ИБ-сервисов только формируется 2.5 т

DGX Station A100 доступна с четырьмя GPU NVIDIA A100 80GB или 40GB с тензорными ядрами, что позволяет группам исследователей выбрать систему в соответствии с их уникальными рабочими нагрузками и бюджетами.

DGX Station A100 более чем в 4 раза быстрее, чем DGX Station предыдущего поколения, в работе со сложными моделями диалогового ИИ, например, в инференсе BERT Large. Она обеспечивает почти трехкратное повышение производительности в обучения BERT Large.

Для больших рабочих нагрузок уровня ЦОД системы DGX A100 будут доступны с графическими процессорами NVIDIA A100 80GB, с удвоенным объемом памяти до 640 ГБ на систему, что позволит командам специалистов по ИИ повысить точность с помощью более крупных наборов данных и моделей.

Системы NVIDIA DGX A100 640 ГБ также могут быть интегрированы в корпоративные решения NVIDIA DGX SuperPOD, что позволит организациям создавать, обучать и развертывать массивные модели искусственного интеллекта на готовых ИИ-суперкомпьютерах, доступных в сборках по 20 систем DGX A100.

Среди первых систем DGX SuperPOD с DGX A100 640GB на борту – суперкомпьютер Cambridge-1, установленный в Великобритании для ускорения исследований в области здравоохранения, а также новый ИИ-суперкомпьютер HiPerGator в Университете Флориды, который будет применяться для исследований с использованием искусственного интеллекта во всем штате Флорида.

Доступность

Системы NVIDIA DGX Station A100 и NVIDIA DGX A100 640GB будут доступны в этом квартале у партнеров NVIDIA по всему миру. Для владельцев NVIDIA DGX A100 320GB доступен вариант апгрейда системы.

2018: Nvidia DGX-2

В конце марта 2018 года компания Nvidia представила суперкомпьютер DGX-2, обладающий производительностью около двух петафлопс, и предназначенный для задач глубокого обучения. По утверждению компании, одиночный сервер DGX-2 способен заменить 300 обычных серверов, занимающих 15 стоек в дата-центрах при в 60 раз меньшем размере и в 18 раз большей энергоэффективности.[1]

В основе суперкомпьютера лежат 16 видеоускорителей Tesla V100, сочетающих в себе графический процессор Nvidia GV100 на архитектуре Volta и 32 ГБ памяти HBM2.

Для связи графических ускорителей используется интерфейс NVSwitch, позволяющий «общаться» двум GPU на скорости до 300 Гбит/с. Данная шина вместе с NVLink 2 позволяет объединить все 16 Tesla V100 в один гигантский видеоускоритель с почти 82 тысячами ядер CUDA, более чем десятью тысячами ядер Tensor и 512 ГБ памяти HBM2 с предельной пропускной способностью в 14,4 Тбайт/с.

Nvidia DGX-2

Остальные спецификации суперкомпьютера Nvidia DGX-2 включают два процессора Intel Xeon Platinum (конкретные модели не называются), до 1,5 Тбайт оперативной памяти DDR4, а также NVMe-накопители суммарным объёмом от 30 до 60 Тбайт. Кроме того, на борту присутствует интерфейс InfiniBand наряду со 100-гигабитным Ethernet. Энергопотребление устройства в нагрузке составляет 10 кВт.

Суперкомпьютер Nvidia DGX-2 был оценён производителем в $400 тыс., поставки начнутся в третьем квартале.[2]

2016: Nvidia DGX-1

5 апреля 2016 года компания NVIDIA сообщила о создании DGX-1 с целью поддержки разработок в сфере искусственного интеллекта.

NVIDIA DGX-1 – система, разработанная специально для задач глубокого обучения. Она оснащена необходимым аппаратным обеспечением, программным обеспечением для глубокого обучения и инструментами разработки для быстрого разворачивания системы. В ее основе графические процессоры, которые обеспечивают скорость обработки данных, сравнимую с 250 серверами x86 архитектуры.

NVIDIA DGX-1, (2016)

Использование GPU-ускоренных вычислений обеспечивает исследователям в области данных создание умных машин, способных учиться, видеть и воспринимать мир как человек. Система обладает значительной вычислительной мощью, позволяя запускать приложения искусственного интеллекта. Она сокращает время исследователей на обучение больших и сложных глубоких нейронных сетей.

Нейронные сети позволяют создавать новые типы приложений, работающих с колоссальными объемами информации и, соответственно, требующих более высокого уровня вычислительной производительности.

«
Искусственный интеллект – это самый масштабный технологический прорыв нашего времени. Совершенно очевидно, он изменит все отрасли промышленности, все компании, да и весь уклад человеческой жизни. Искусственный интеллект породит новые рынки, от которых получат пользу все. Сегодня исследователи в области данных и искусственного интеллекта тратят слишком много времени на создание «домашних» высокопроизводительных вычислительных систем. Система DGX-1 проста в установке и преследует только одну цель: раскрыть потенциал сверхчеловеческих способностей и направить его на решение проблем, ранее считавшихся неразрешимыми.

Дженсен Хуанг (Jen-Hsun Huang), генеральный директор и соучредитель NVIDIA
»

В набор ПО DGX-1 входят:

  • NVIDIA Deep Learning GPU Training System (DIGITS), интерактивная система для создания глубоких нейронных сетей (DNN),
  • NVIDIA CUDA Deep Neural Network (cuDNN) версии 5, GPU-ускоряемая библиотека примитивов для создания DNN.

В составе системы оптимизированные версии нескольких широко используемых фреймворков глубокого обучения— Caffe, Theano и Torch. DGX-1 предоставляет доступ к облачным инструментам управления, обновлениям ПО и банку приложений-контейнеров.

Характеристики

  • Пиковая производительность до 170 терафлопс вычислений половинной точности (FP16)
  • Восемь GPU-ускорителей Tesla P100, с 16 ГБ памяти на борту каждого GPU
  • NVLink Hybrid Cube Mesh
  • 7ТБ SSD DL Cache
  • Dual 10GbE, Quad InfiniBand 100Gb
  • 3U – 3200 Вт

Суперкомпьютер NVIDIA DGX-1 – это первая в мире система, разработанная специально для задач глубокого обучения и ускоренного анализа данных в области искусственного интеллекта. Суперкомпьютер позволяет обрабатывать и анализировать информацию в 100 раз быстрее по сравнению с традиционными вычислительными системами, что приводит к значительной экономии на формировании и обслуживании ИТ-инфраструктуры.

Система построена на ускорителях Tesla P100, высокоскоростное соединение между которыми обеспечивает интерфейс NVIDIA NVLink, способный увеличить скорость обмена данными между GPU до 12 раз по сравнению с шиной PCI-E. Комплекс программного обеспечения системы выключает NVIDIA DIGITS GPU Training System, NVIDIA Deep Learning SDK (CuDNN, NCCL), NVIDIA Dockerдля быстрого создания и обучения глубоких нейронных сетей (DNN). Помимо этого, система включает оптимизированные версии широко используемых фреймворков глубокого обучения — Caffe, Theano, Torch и не только. NVIDIA DGX-1 также имеет доступ к облачной системе управления, необходимой для создания и развертывания контейнеров, системных обновлений и доступа в хранилище приложений.

Примечания



ПРОЕКТЫ (8) ИНТЕГРАТОРЫ (3) РЕШЕНИЕ НА БАЗЕ (2)
СМ. ТАКЖЕ (26)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Т-Платформы (T-Platforms) (22)
  РСК (группа компаний, ранее - РСК Скиф) (9)
  IBM (8)
  Fujitsu (6)
  Softline (Софтлайн) (5)
  Другие (88)

  BSSG - Business Solutions & Service Group (1)
  Fujitsu (1)
  Hewlett Packard Enterprise (HPE) (1)
  Intel (1)
  Lenovo (1)
  Другие (2)

  Национальный центр информатизации (НЦИ) (1)
  РСК (группа компаний, ранее - РСК Скиф) (1)
  Трансинформ (1)
  Другие (0)

  БПС Инновационные программные решения (ранее БПЦ Банковские технологии) (1)
  К2 Тех (1)
  Другие (0)

  Advance Engineering (Адванс Инжиниринг) (1)
  РСК (группа компаний, ранее - РСК Скиф) (1)
  РСК Технологии (1)
  Другие (0)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  РСК Технологии (9, 15)
  IBM (16, 14)
  Nvidia (Нвидиа) (9, 8)
  МЦСТ (1, 8)
  Т-Платформы (T-Platforms) (8, 7)
  Другие (99, 32)

  IBM (1, 1)
  Hewlett Packard Enterprise (HPE) (1, 1)
  Nvidia (Нвидиа) (1, 1)
  Другие (0, 0)

  РСК Технологии (1, 1)
  МЦСТ (1, 1)
  Другие (0, 0)

  МЦСТ (1, 1)
  Другие (0, 0)

  РСК Технологии (2, 2)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  IBM Watson - 10
  РСК Торнадо (RSC Tornado) - 9
  Nvidia DGX Суперкомпьютеры - 8
  Эльбрус - 8
  Atos Bull Sequana X Суперкомпьютер - 5
  Другие 41

  IBM Watson - 1
  HPE Cray EX series - 1
  Nvidia DGX Суперкомпьютеры - 1
  Другие 0

  Эльбрус - 1
  РСК Торнадо (RSC Tornado) - 1
  Другие 0

  Эльбрус - 1
  Другие 0

  РСК Торнадо (RSC Tornado) - 2
  РСК БазИС - 1
  Другие 0